While human evaluation is the most reliable metric for evaluating speech generation systems, it is generally costly and time-consuming. Previous studies on automatic speech quality assessment address the problem by predicting human evaluation scores with machine learning models. However, they rely on supervised learning and thus suffer from high annotation costs and domain-shift problems. We propose SpeechLMScore, an unsupervised metric to evaluate generated speech using a speech-language model. SpeechLMScore computes the average log-probability of a speech signal by mapping it into discrete tokens and measures the average probability of generating the sequence of tokens. Therefore, it does not require human annotation and is a highly scalable framework. Evaluation results demonstrate that the proposed metric shows a promising correlation with human evaluation scores on different speech generation tasks including voice conversion, text-to-speech, and speech enhancement.
translated by 谷歌翻译
Diabetic Retinopathy (DR) is considered one of the primary concerns due to its effect on vision loss among most people with diabetes globally. The severity of DR is mostly comprehended manually by ophthalmologists from fundus photography-based retina images. This paper deals with an automated understanding of the severity stages of DR. In the literature, researchers have focused on this automation using traditional machine learning-based algorithms and convolutional architectures. However, the past works hardly focused on essential parts of the retinal image to improve the model performance. In this paper, we adopt transformer-based learning models to capture the crucial features of retinal images to understand DR severity better. We work with ensembling image transformers, where we adopt four models, namely ViT (Vision Transformer), BEiT (Bidirectional Encoder representation for image Transformer), CaiT (Class-Attention in Image Transformers), and DeiT (Data efficient image Transformers), to infer the degree of DR severity from fundus photographs. For experiments, we used the publicly available APTOS-2019 blindness detection dataset, where the performances of the transformer-based models were quite encouraging.
translated by 谷歌翻译
随着电子商务行业的扩散,分析客户反馈是服务提供商必不可少的。最近几天,可以注意到,客户以评论分数上传购买的产品图像。在本文中,我们承担了分析此类视觉评论的任务,这是非常新的。过去,研究人员致力于分析语言反馈,但是在这里,我们没有从语言评论中获得任何可能不存在的帮助,因为可以观察到最近的趋势,客户喜欢快速上传视觉反馈而不是输入语言反馈。我们提出了一个分层体系结构,高级模型参与产品分类,而低级模型则注意从客户提供的产品图像预测评论得分。我们通过采购真实的视觉产品评论来生成数据库,这非常具有挑战性。我们的体系结构通过对所采用的数据库进行广泛的实验,从而获得了一些有希望的结果。拟议的分层体系结构比单层最佳可比架构的性能提高了57.48%。
translated by 谷歌翻译
每年大约有6,800次自然灾害发生,由于气候变化的影响,这一令人震惊的数量继续增长。改善自然灾害反应的有效方法包括执行变更检测,地图对准和视觉辅助导航,以允许节省时间的救生援助。当前的软件仅在地面高于地面九十度的NADIR图像上发挥最佳功能。无法概括倾斜的图像增加了计算图像的地心姿势的需求,这是其在重力方面的空间取向。这项深入学习调查提出了三个卷积模型,以使用5,923个Nadir和斜红,绿色和蓝色(RGB)卫星图像预测地心的姿势。第一个模型是一种自动编码器,将256 x 256 x 3图像凝结到32 x 32 x 16潜在空间表示形式,证明了从数据中学习有用功能的能力。第二个模型是U-NET完全卷积网络,其SKIP连接用于预测每个图像的相应像素级掩码。该模型在测试数据上实现了0.335米的中值绝对偏差为0.335米,R2为0.865。之后,将高程面膜与RGB图像串联以形成馈入第三个模型的四通道输入,该输入预测了每个图像的旋转角度和比例,即其地理为中心姿势的组件。这种深度卷积神经网络在测试数据上达到了0.943的R2,大大优于研究人员设计的先前模型。本研究中建立的高准确软件有助于制定和导航程序,以加速救灾并挽救人类的生命。
translated by 谷歌翻译
本文正式对系统之间的战略重复交互作用,包括机器学习(ML)模型和相关的解释方法,以及正在寻求预测/标签的最终用户,并通过查询/输入进行解释,游戏理论。在这个游戏中,恶意的最终用户必须从战略上决定何时停止查询并尝试妥协系统,而系统必须战略性地决定其与最终用户以及何时分享的信息(以嘈杂的解释的形式)停止分享,所有这些都不知道最终用户的类型(诚实/恶意)。本文使用连续的随机信号游戏框架正式对这种权衡进行了正式建模,并在这种框架内表征了马尔可夫的完美平衡状态。
translated by 谷歌翻译
本文调查了具有不平等专业知识的组织之间竞争的动态。多智能体增强学习已被用来模拟和理解各种激励方案的影响,旨在抵消这种不等式。我们设计触摸标记,基于众所周知的多助手粒子环境的游戏,其中两支球队(弱,强),不平等但不断变化的技能水平相互竞争。对于培训此类游戏,我们提出了一种新颖的控制器辅助多智能体增强学习算法\我们的\,它使每个代理商携带策略的集合以及通过选择性地分区示例空间,触发智能角色划分队友。使用C-MADDPG作为潜在的框架,我们向弱小的团队提出了激励计划,使两队的最终奖励成为同一个。我们发现尽管激动人心,但弱小队的最终奖励仍然缺乏强大的团​​队。在检查中,我们意识到弱小球队的整体激励计划并未激励该团队中的较弱代理来学习和改进。要抵消这一点,我们现在特别激励了较弱的球员学习,因此,观察到超越初始阶段的弱小球队与更强大的团队表现。本文的最终目标是制定一种动态激励计划,不断平衡两支球队的奖励。这是通过设计富有奖励的激励计划来实现的,该计划从环境中取出最低信息。
translated by 谷歌翻译
放射造影通常用于探测动态系统中的复杂,不断发展的密度字段,以便在潜在的物理学中实现进入洞察力。该技术已用于许多领域,包括材料科学,休克物理,惯性监禁融合和其他国家安全应用。然而,在许多这些应用中,噪声,散射,复杂光束动力学等的并发症防止了密度的重建足以足以识别具有足够置信度的底层物理。因此,来自静态/动态射线照相的密度重建通常限于在许多这些应用中识别诸如裂缝和空隙的不连续特征。在这项工作中,我们提出了一种从基本上重建密度的基本上新的射线照片序列的密度。仅使用射线照相识别的稳健特征,我们将它们与使用机器学习方法的底层流体动力方程组合,即条件生成对冲网络(CGAN),以从射线照片的动态序列确定密度字段。接下来,我们寻求通过参数估计和投影的过程进一步提高ML的密度重建的流体动力学一致性,并进入流体动力歧管。在这种情况下,我们注意到,训练数据给出的流体动力歧管在被认为的参数空间中给出的测试数据是用于预测的稳定性的诊断,并用于增强培训数据库,期望后者将进一步降低未来的密度重建错误。最后,我们展示了这种方法优于传统的射线照相重建在捕获允许的流体动力学路径中的能力,即使存在相对少量的散射。
translated by 谷歌翻译
我们研究马尔可夫决策过程(MDP),其中状态对应于随机生成奖励的因果图。在这个设置中,学习者的目标是通过在每个州的变量上介绍,识别导致高奖励的原子干预措施。概括最近的因果强盗框架,目前的工作开发(简单)后悔最小化对两级因果MDP的保证,每个状态下并行因果图。我们提出了一种算法,实现了一个依赖于困境的实例。我们算法的一个关键特征是它利用凸优化来解决探索问题。我们识别我们遗憾保证基本紧张的课程,实验验证我们的理论结果。
translated by 谷歌翻译
事实证明,稀疏的深度神经网络在大规模研究中对于预测模型构建有效。尽管几项作品研究了稀疏神经体系结构的理论和数值特性,但它们主要集中在边缘选择上。通过优势选择的稀疏性可能具有直觉上的吸引力;但是,它不一定会降低网络的结构复杂性。相反,修剪过多的节点会导致一个结构稀疏的网络,并在推理过程中具有显着的计算加速。为此,我们建议使用Spike and-Slab Gaussian先验者提出贝叶斯稀疏溶液,以允许在训练过程中选择自动节点。使用Spike and-Slab先验减轻了对修剪的临时阈值规则的需求。此外,我们采用了一种差异贝叶斯方法来规避传统马尔可夫链蒙特卡洛(MCMC)实施的计算挑战。在节点选择的背景下,我们建立了变异后一致性的基本结果,以及先前参数的表征。与以前的作品相反,我们的理论发展放宽了所有网络权重的节点和均匀界限的假设,从而适应具有层依赖性节点结构或系数边界的稀疏网络。通过对先前纳入概率的层表表征,我们讨论了后部变异的最佳收缩率。我们从经验上证明,我们所提出的方法的表现优于计算复杂性的边缘选择方法,具有相似或更好的预测性能。我们的实验证据进一步证明了我们的理论工作有助于层面上的最佳节点恢复。
translated by 谷歌翻译